VALL-E X
https://images-ext-2.discordapp.net/external/f3xZ2GZ-4SUqWkacr20x8UJT_BzweSqYSNo7r0zlxdM/https/pbs.twimg.com/media/FqqZEOjWwAAE3td.jpg?width=719&height=387
多言語、多スピーカー、マルチドメインの膨大な未清澄音声データからなるクロスリンガルなニューラルコーデック言語モード 多言語条件付きコーデック言語モデルを学習させることで、ターゲット言語音声の音響トークン列を予測するように設計されています。これは、ソース言語音声とターゲット言語テキストの両方を供給プロンプトとして使用することによって行われる
多言語インコンテキスト学習フレームワークにより、VALL-E Xによるクロスリンガル音声の生成が可能になりました。未視聴話者の音声、感情、発話背景を保持することができる 言語横断的な音声合成タスクの最大の課題である外国語訛りの問題を克服 どんな話者でも母国語の音声を生成することができる
ゼロショット言語間音声合成とゼロショット音声合成翻訳タスクに適用されている
実験の結果、話者類似度、音声品質、翻訳品質、音声の自然さ、人間評価に関して、強力なベースラインを上回ることができた
オープンソースでの実装
日本語も素晴らしい性能nomadoor.icon